GenPO++: Políticas generativas con razones de verosimilitud sin Jacobiano Descubre GenPO++: un marco de optimización de políticas generativas con razones de verosimilitud exactas y sin Jacobiano para RL on-policy, mejorando estabilidad y eficiencia. 2026-06-08 · 2 min